Sih对ACL2020中NLU研究方向的总结,关于NLU中的研究点,欢迎小伙伴一起讨论idea~
1. 方向总结
1) 优化NLU的结构化表示
Recursive Template-based Frame Generation for Task Oriented Dialog
Coach: A Coarse-to-Fine Approach for Cross-domain Slot Filling
2) 解决NLU中close world的设定
- 将slot filling的任务转化为span抽取:Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations
- Novel intent detection:Unknown Intent Detection Using Gaussian Mixture Model with an Application to Zero-shot Intent Classification
3) 解决NLU中数据短缺的问题
2. 具体解析
Recursive Template-based Frame Generation for Task Oriented Dialog
ACL2020 Short paper, Amazon: https://www.aclweb.org/anthology/2020.acl-main.186/
解决的问题:优化NLU的结构化表示。
概述:NLU模块处理用户的语句,并将其转换为结构化信息,此信息通常表示为语义框架,可捕获用户提供的意图和slot标签。本文认为对于复杂的对话场景,这样的浅层表示是不够的,因为它不能捕获许多域中固有的递归性质。 本文提出了一种递归的,基于层次框架的表示形式,文中将frame生成任务公式化为基于模板的树解码任务,其中解码器以递归方式生成模板,然后将slot值填充到模板中。
方法:输入用户话语x, 期望输出上图中括号里的表示y。The translation from x to y is performed using four components that are jointly trained end-to-end, (1)an encoder, (2) a slot decoder, (3) a tree decoder and (4) a pointer network.
数据集:ATIS
Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations
ACL2020 Long paper, PolyAI : https://arxiv.org/abs/2005.08866
Code: https://github.com/PolyAI-LDN/task-specific-datasets
解决的问题:slot filling任务上的对value抽取的改进, 不将value值限制在固定类别上,而是将该任务定义为Span抽取任务。本文提出基Span的slot-filling模型,在slot filling任务中需要给一些slot填充Value值,本文直接从用户对话中抽取一个文段作为value。同时文中基于预训练模型和领域知识,该基于Span的模型可以在小样本条件下实现更好的效果。
Dataset: 文中自己提出了一个数据RESTAURANTS-8K,比ATIS和SNIPS更难。(slot 数量不多,5 个)
Coach: A Coarse-to-Fine Approach for Cross-domain Slot Filling
ACL2020 Short paper: https://arxiv.org/abs/2004.11727
Code: https://github.com/zliucr/coach
本文提出了一种从粗到精的方法进行跨域slot filling的方法,首先通过检测token是否为slot实体来学习slot实体的general pattern, 然后预测slot entity的特定类型。
Few-shot Slot Tagging with Collapsed Dependency Transfer and Label-enhanced Task-adaptive Projection Network
ACL 2020 哈工大https://arxiv.org/abs/2006.05702
本文研究了少样本槽位提取问题(Few-shot Slot-Tagging)。与其他广泛研究的少样本问题相比,少样本槽位提取面临着“建模标签间依赖关系”的独特挑战。但是,由于不同领域间存在标签集的差异,很难将先前学习的标签依赖应用于新的领域。为了解决这个问题,本文在CRF中引入了折叠的依赖关系迁移机制(Collapsed Dependency Transfer),通过建模抽象的标签依赖关系来实现这种迁移。在小样本和元学习的情景下,CRF的发射概率可以用利用度量学习得到:计算为单词与每个标签类别的相似度。为了计算这种相似性,在近期的图像小样本分类模型TapNet基础上,利用标签名称语义来表示标签,提出了一种标签增强的任务自适应投影网络(L-TapNet)。